图 二 情 设 三 作 


第 62 卷 第 23 期 2018 年 12 月 


大 数据 时 代数 字 图 书馆 研究 述评 ， 


目 黄 传 熙 


中 南 民 族 大 学 教育 学 院 ”武汉 430074 


摘要 : [ 目的/ 意义] 系统 梳理 国内 外 大 数据 时 代数 字 图 书馆 研究 文献 , 旨 在 为 国内 该 领域 的 进一步 研究 提 
供 借 鉴 和 参考 。 [ 方法 /过程 ] 采 用 综合 归纳 、 比 较 等 方法 ,从 大 数据 内 涵 及 其 对 数字 图 书馆 的 影响 研究 数字 
图 书馆 中 的 大 数据 技术 应 用 研究 、 大 数据 时 代数 字 图 书馆 建设 研究 、 大 数据 时 代数 字 图 书馆 的 服务 模式 4 个 方 
面 进行 述评 。[ 结果 /结论 ] 结果 表明 ,相关 领域 研究 取得 了 不 少 成 果 , 但 也 存在 一 些 问题 。 提 出 下 一 步 该 领域 
应 当 关注 的 研究 重点 :中 明确 大 数据 时 代 图 书馆 服务 目标 ;@) 结 合 国内 外 成 功 案 例 分 析 , 深 入 探究 影响 图 书馆 
信息 服务 的 各 种 因素 ,找到 大 数据 促进 优化 图 书馆 信息 服务 的 核心 要 素 ;@) 跨 学 科 合 作 研 究 ; 由 在 研究 方法 上 


寻求 突破 和 创新 。 


二 关键 词 : 大 数据 ”数字 图 书馆 信息 服务 ”挑战 机遇 
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大 数据 是 继 Web 2.0、 云 计算 之 后 网 络 媒体 广泛 
关注 的 新 词 ,大 数据 是 大 规模 的 数据 集 ,更 是 大 容量 、 
项 通 和 多 样 化 的 信息 资产 ,是 在 种 类 繁多 .数据 庞大 的 
多 样 数据 中 进行 的 快速 信息 获取 ,并 且 已 经 渗透 到 社 
会 胸 各 行 各 业 。 在 大 数据 时 代 , 图 书馆 将 面临 很 大 的 
威 及 ,必须 借助 于 大 数据 时 代 这 一 契机 ,全 面 梳理 服务 
理念 \ 服 务 技术 、 资 源 建设 服务 手段 等 ,改变 陈旧 落后 
的 服务 模式 和 理念 ,重新 架构 数字 图 书馆 ,把 挑战 变 成 
再 一 次 腾飞 的 机 遇 。 因 此 ,揭示 大 数据 时 代数 字 图 书 
馆 研 究 进展 ,对 于 图 书馆 提升 信息 服务 质量 提高 用 户 
满意 度 具 有 理论 和 现实 意义 。 

本 文通 过 系统 地 阅读 和 分 析 国 内 外 相关 文献 , 归 
纳 整 理 其 研究 主题 和 研究 内 容 ,深入 思考 和 探索 ,揭示 
国内 外 大 数据 时 代数 字 图 书馆 研究 的 内 容 、 特 点 及 趋 
势 , 以 期 对 我 国 大 数据 .数字 图 书馆 的 信息 服务 研究 和 
实践 提供 借鉴 和 参考 。 


2 大 数据 受到 图 书馆 研究 的 关注 


2.1 国外 文献 检索 
大 数据 时 代 的 到 来 受到 学 术 界 、 企 业界 等 各 领域 


的 密切 关注 ,国际 顶尖 学 术 期 刊 Nature 、Science 分 别 于 
2008 年 和 2011 年 推出 大 数据 专刊 ,探讨 大 数据 理论 、 
技术 与 应 用 人 研究。 美国 知名 管理 咨询 公司 McKinsey & 
Company( 麦肯锡 公司 ) 于 2011 年 5 月 在 公司 《大 数 
据 : 创 新 .竞争 和 生产 力 的 下 一 个 前 沿 领域 》 报 告 中 指 
出 ,大 数据 已 经 渗透 到 每 一 个 行业 和 业务 的 职能 领域 ， 
逐渐 成 为 重要 的 生产 因素 。 大 数据 包含 了 复杂 和 深刻 
的 理念 ,更 是 渗透 到 各 个 人 研究 领域 ,美国 加 州 大 学 伯 克 
利 分 校 的 T. K，Huwe'" 认为 :大 数据 与 图 书馆 是 天 作 
之 合 ,图 书馆 员 对 用 户 进行 研究 的 项 目 尤 其 适合 大 数 
据 。R. Lauren 和 本 W. Rachel'” 认为 随 着 图 书馆 不 断 
提供 更 多 的 数据 服务 ,图 书馆 员 有 机 会 成 为 大 数据 时 
代 的 专家 和 权威 人 士 。 国 外 研究 大 数据 的 文献 很 多 ， 
但 集中 在 图 书 情报 领域 的 文献 不 多 。 在 Web of Sci- 
ence 中 采用 关键 词 =“ Big Data” 和" Library” 时 间 截 至 
2018 年 3 月 27 日 进行 标题 检索 ,得 到 19 篇 文献 ,然后 
通过 人 工 筛 选 和 去 重 , 只 有 2 篇 文献 与 大 数据 时 代数 
字 图 书馆 研究 完全 相关 。 
2.2 国内 文献 检索 

在 我 国 ,大 数据 吸引 了 包括 政府 企业、 图 书馆 等 
在 内 的 多 方 关注 ,被 称 为 具有 催生 社会 变革 的 力量 , 探 
讨 大 数据 在 各 个 行业 的 应 用 及 其 存在 价值 必 将 是 各 学 
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科 领 域 学 术 研 究 的 一 大 趋势 。 以 “大 数据 ”和 “图 书 
馆 ” 为 关键 词 在 CNKI 中 进行 题名 检索 ,截至 2018 年 3 
月 27 日 , 共 检 索 到 1 557 篇 论文 ,最 早 基于 大 数据 的 
数字 图 书馆 研究 论文 出 现在 2012 年 , 仅 有 4 篇 文献 ， 
但 此 后 研究 成 果 迅 速 发 展 , 论 文 数量 按 年 份 的 分 布 见 
图 1 ,其 中 2016 年 达到 顶峰 ,共有 441 篇 。 
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™ 
> 图 1 基于 大 数据 的 图 书馆 论文 数量 年 代 分 布 


和 内 索 到 的 论文 数量 来 看 ,研究 大 数据 表 景 下 图 

的 各 种 问题 确实 已 成 为 图 书 情报 学 科 的 热点 。 但 
有 的 论文 侧重 点 是 研究 传统 图 书馆 ,而 不 是 数字 图 书 
馆 ;\ 南 的 论文 题目 中 虽然 有 * 大 数据 时 代 ”, 但 对 大 数 
握 时 代数 字 图 书馆 的 特质 .服务 等 内 容 研究 不 多 ;有 的 
诊 交 题目 里 没有 “数字 图 书馆 ” ,但 实际 上 是 大 数据 时 
代 钥 字 图 书馆 的 研究 内 容 ,经 过 对 检索 结果 人 工 阅读 
宫 知 .去 重 ,得 到 144 篇 研究 内 容 密切 相关 的 论文 。 
外 枉 关 文献 数量 上 远 远 低 于 国内 文献 ,因此 ,本 文 主要 
对 国内 144 篇 核心 论文 进行 述评 ,只 是 涉及 到 具体 某 
个 慨 念 或 研究 主题 时 ,引用 国外 的 文献 进行 借鉴 或 者 
对 区 。 
2. 人 0 国内 文献 受 课题 资助 检索 

分 析 国内 检索 到 的 论文 成 果 , 共 有 71 篇 论文 受 各 
级 课题 支持 ,如 果 统 计 有 3 篇 以 上 论文 的 课题 数 ,论文 
受 各 级 课题 资助 统计 见 表 1, 其 中 受到 国家 社会 科学 
基金 支持 的 有 27 篇 .国家 自然 科学 基金 支持 的 有 11 
篇 ,说 明 该 领域 的 研究 国家 课题 支持 力度 比较 大 。 

表 1 受 各 级 课题 资助 论文 数量 
( 仅 统 计 3 篇 以 上 论文 数 的 课题 ) 


序号 基金 名 称 论文 数量 
1 国家 社会 科学 基金 7 
2 国家 自然 科学 基金 11 
3 江苏 省 教育 厅 人 文 社会 科学 项 目 8 
4 河南 省 软 科 学 研究 计划 项 目 4 
5 重庆 市 教委 科研 基金 项 目 3 
6 湖南 省 教委 科研 基金 项 目 3 


大 数据 强调 的 不 仅 是 数据 量 的 庞大 ,背后 隐藏 着 


更 为 复杂 和 深刻 的 理念 ,不 同 的 学 科 领 域 ,正在 不 同 层 
面 上 关注 着 大 数据 对 本 领域 研究 和 实践 带 来 的 深刻 影 
啊 ,数字 图 书馆 研究 也 不 例外 。 人 情报 学 研究 者 已 成 功 
地 将 大 数据 的 理念 与 方法 引入 到 图 书 情报 界 , 图 书 情 
报 类 期 刊 《 图 书 与 情报 》 在 2012 年 第 6 期 专门 刊 发 了 
一 组 大 数据 文章 ,深入 探讨 大 数据 在 情报 研究 、 图 书馆 
事业 交通 管理 等 领域 的 应 用 研究 。 从 课题 资助 来 看 ， 
2014 年 国家 社会 科学 基金 资助 图 书馆 、 情 报 与 文献 学 
学 科 131 项 课题 ,其 中 选 题 中 含有 “大 数据 ”的 项 目 就 
有 18 项 ,超过 其 他 任何 选 题 ”。 国 家 社会 科学 基金 的 
研究 周期 一 般 是 3 -5 年 ,研究 者 会 围绕 课题 研究 发 表 
一 系列 有 关 大 数据 研究 论文 ,这 也 是 2016 年 有 关 大 数 
据 研究 论文 达到 顶峰 的 原因 之 一 。2015 年 ,由 武汉 大 
学 和 全 球 顶尖 信息 学 院 联 盟 iSchools 、 美 国 图 书 情报 学 
教育 协会 (ALISE ) 联合 主办 的 “第 四 届 中 美 数 字 时 代 
图 书馆 学 情报 学 教育 国际 研讨 会 ”在 武汉 大 学 召开 , 主 
题 是 “大 数据 时 代 图 书 情 报 学 理论 与 教育 发 展 对 策 ”， 
围绕 大 数据 时 代 全 球 图 书 情报 学 研究 与 教育 八大 问题 
展开 了 研讨 “。 由 此 可 见 ,大 数据 时 代 已 引起 了 学 者 
们 的 极 大 关注 ,学 者 们 正在 不 断 探索 大 数据 和 图 书 情 
报 学 科 的 融合 点 。 


3 ”大 数据 时 代数 字 图 书馆 的 研究 思路 


学 者 们 已 对 大 数据 的 理念 ,技术 和 在 数字 图 书馆 
的 应 用 做 了 许多 研究 ,但 综述 论文 不 多 ,这 些 综述 论文 
有 的 是 基于 文献 进行 分 析 ” ;有 的 是 基于 时 间 进 行 阶 
段 性 进展 分 析 " 。 本 文 是 基于 内 容 分 析 法 对 大 数据 时 
代数 字 图 书馆 的 研究 进行 述评 ,除了 综述 现 有 成 果 , 还 
进行 比较 ,评论 。 大 数据 对 图 书馆 研究 的 影响 是 多 方 
面 的 ,为 了 观察 大 数据 对 图 书馆 研究 的 影响 ,对 检索 到 
的 144 篇 文献 进行 可 视 化 分 析 , 其 关键 词 共 现 网 络 如 
2 所 示 : 


服 胸 | 新 A 


创新 个 性 化 服务 
数据 分 析 信息 服务 ”图 己 铺 服务 


服务 模式 
式 ”数据 挖 所 元 


服务 


大 数据 时 代 
挑战 知识 服务 


公共 图 
公共 图 书馆 智慧 图 书馆 


图 书馆 数字 图 书馆 


大 
2 关键 词 共 现 网 络 


大 数据 是 近年 来 才 出 现 的 新 生 事 物 , 面 对 网 络 资 
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源 建设 商 在 学 术 资 源 .信息 服务 .文化 教育 上 的 迅猛 发 
民 ,数字 图 书馆 如 何 发 展 .是 否 会 被 取代 ? 这 是 图 书馆 
界 必须 要 思考 的 问题 。 图 书馆 要 将 大 数据 时 代 的 挑战 
变 成 机 遇 , 首 先 必须 深刻 理解 大 数据 的 核心 理念 和 新 
方法 ,新 技术 ,必须 从 大 数据 中 汲取 营养 。 基 于 关键 词 
在 同一 篇 文献 中 的 共 现 关系 ,可 以 构建 出 大 数据 时 代 
数字 图 书馆 概念 之 间 的 复杂 网 络 ,观察 图 2 所 示 的 关 
键 词 共 现 网 络 , 分 析 图 书馆 .大 数据 时 代 等 关键 词 的 词 
频 和 共 现 关系 ,本 文 拟 从 大 数据 的 概念 研究 人 手 ,围绕 
图 书馆 研究 大 数据 时 代 的 内 涵 .大 数据 环境 的 特点 ,以 
云 计算 数据 挖 握 , 数 据 分 析 等 大 数据 技术 作为 切入 
点 ,继而 研究 数字 图 书馆 的 个 性 化 服务 ,知识 服务 、 服 
务 创新 和 服务 模式 。 文 章 内 容 分 为 大 数据 内 涵 及 其 对 
妆 字 图 书馆 的 影响 研究 ,数字 图 书馆 中 的 大 数据 技术 
应 请 研究 大 数据 时 代数 字 图 书馆 建设 研究 .大 数据 时 
代 驶 字 图 书馆 的 服务 模式 4 部 分 进行 述评 。 


4ga 大 数据 内 涵 及 其 对 数字 图 书馆 的 影响 研究 

CDI 大 数据 的 内 涵 ”大 数据 并 非特 指 某 一 项 具体 
的 楼 术 , 而 是 一 个 抽象 的 概念 ,正如 “ 云 计算 ”“ 物 联 
网 > 这 些 信息 技术 领域 新 兴 概 念 一 样 ,目前 大 数据 概念 
礁 六 界 还 没有 准确 统一 的 定义 。 维 基 百科 对 大 数据 作 
出 全 定义 是 :大 数据 是 指 利用 常用 软件 工具 捕获 .管理 
和 到 理 数据 所 耗 时 间 超过 可 容忍 时 间 的 数据 集 。 这 与 
Mnsey & Company (麦肯锡 公司 ) 于 2011 年 5 月 给 
出 的 定义 非常 一 致 :大 数据 是 指 利用 传统 的 数据 软件 
工 坟 ,根本 没 办 法 在 短 时 间 内 完成 对 其 搜索 .管理 和 处 
理 的 数据 集合 ” 。 权 威 全 研究 与 顾问 咨询 公司 Gart- 
ner 将 大 数据 定义 为 “在 一 个 或 多 个 维度 上 超出 传统 信 
息 技术 的 处 理 能 力 的 极端 信息 管理 和 问题 的 处 理 ”。 
这 些 定义 虽然 描述 有 所 不 同 ,但 都 认为 大 数据 具有 海 
量 数据 ,大 规模 数据 的 特征 。IBM 公司 指出 ,大 数据 的 
寺 点 是 4 个 V:Volume( 大 量 ) .Velocity ( 高速) .Variety 
(多 样 ) .Veracity( 真实 ) 。Gartner 公司 的 报告 也 指出 ， 
大 数据 是 大 容量 .高速 和 多 样 化 的 信息 资产 ,它们 需要 
新 的 处 理 方式 ,以 提高 决策 能 力 ,洞察 力 和 流程 优化 。 
无 论 从 数据 量 .结构 复杂 程度 还 是 产 出 速度 来 看 ,传统 
的 海量 数据 与 大 数据 形态 都 存在 相当 大 的 差距 ,大 数 
据 只 有 经 过 专业 化 的 处 理 才能 把 单纯 的 数据 变 成 有 价 
值 的 知识 和 信息 。 也 正 是 由 于 大 数据 具备 这 些 特征 ， 
给 图 书馆 的 发 展 带 来 了 巨大 的 影响 ,用 户 对 图 书馆 的 
信息 服务 质量 有 了 更 高 的 期 望 值 , 潜 在 的 知识 挖掘、 数 
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据 分 析 等 增值 服务 需求 已 经 显现 ,图 书馆 需要 探寻 和 
大 数据 的 融合 点 。 

4.1.2 大 数据 给 图 书馆 带 来 的 机 遇 和 挑战 ”大 数据 
已 成 为 图 书 情报 学 界 研 究 的 热点 ,图 书 情 报 学 界 已 意 
识 到 大 数据 对 图 书馆 带 来 的 机 遇 和 挑战 。2012 年 , 韩 
梁 峰 "在 剖析 大 数据 内 涵 后 ,揭示 了 图 书馆 将 在 数据 
存储 数据 挖掘 .数据 分 析 等 领域 面临 着 巨大 的 挑战 和 
考验 。2013 年 ,刘炜 等 ”探讨 了 大 数据 与 关联 数据 在 
图 书 情报 领域 的 发 展 前 景 。2014 年 , 陈 传 夫 等 "在 分 
析 大 数据 与 数字 图 书馆 特点 的 基础 上 ,进行 了 大 数据 
背景 下 数字 图 书馆 建设 的 需求 分 析 ,总 结 其 面临 的 挑 
战 ,并 就 推动 我 国 数字 图 书馆 建设 .推动 大 数据 管理 实 
践 提 出 建议 。2015 年 , 苏 新 宁 "… 发 表 专 题 论文 《大 数 
据 时 代数 字 图 书馆 面临 的 机 遇 和 挑战 ) ,强调 图 书馆 必 
须 借 助 大 数据 时 代 这 一 机 遇 ,在 资源 建设 方面 ,要 有 大 
数据 思维 、 跳 出 传统 资源 建设 的 框架 ,树立 全 方位 服务 
的 理念 ,充分 运用 大 数据 技术 ,拓展 服务 方式 。 传 统 图 
书馆 的 一 切 都 要 变 , 变 得 更 加 适应 大 数据 。 苏 新 宁 的 
许多 观点 被 高 频率 引用 ,其 大 数据 思维 对 数字 图 书馆 
的 资源 建设 .信息 服务 等 研究 起 到 了 引领 作用 。2016 
年 ,S，Mutula' ”强调 图 书馆 员 必须 了 解 大 数据 对 于 促 
进 基 础 研究 的 重要 性 ,并 以 匹兹堡 大 学 等 美国 几 所 名 
校 为 例 , 深 入 探讨 大 数据 对 于 图 书 情报 领域 的 意义 , 解 
析 学 术 领 域 使 用 大 数据 分 析 的 好 处 。2017 年 ,A. 
Waqur 和 A.，Kanwal'"”| 对 IST Web of Knowledge 数据 库 
收录 的 论文 进行 了 分 析 , 探 讨 图 书馆 和 信息 管理 领域 
大 数据 研究 的 趋势 ,结果 表明 大 数据 时 代 图 书馆 的 信 
息 服 务必 将 在 未 来 的 一 段 时 间 内 成 为 研究 热点 ,大 数 
据 将 开启 图 书馆 的 一 次 重大 时 代 转 型 ,图 书馆 借助 大 
数据 理念 .技术 ,跳出 传统 图 书馆 的 框架 ,促进 图 书馆 
在 大 数据 时 代 的 发 展 ,大 数据 时 代 将 为 现 有 的 图 书馆 
言 息 服 务 提供 一 个 全 新 的 研究 视角 。 

4.2 数字 图 书馆 中 的 大 数据 技术 应 用 研究 

4.2.1 数字 图 书馆 的 大 数据 分 析 ”情报 学 和 情报 分 
析 早 在 20 世纪 50 年 代 就 已 存在 ,而 大 数据 和 大 数据 
分 析 则 是 近年 来 才 出 现 的 概念 ,情报 分 析 不 能 简单 地 
套用 大 数据 的 概念 ,要 重点 厘清 大 数据 分 析 和 大 数据 
技术 的 任务 、 重 难点 等 问题 ,才能 真正 有 针对 性 地 助力 
数字 图 书馆 的 快速 发 展 。 

2013 年 , 乌 贺 狂 "" 在 分 析 社 会 经 济 各 方面 的 海量 
数据 后 ,提出 大 数据 的 任务 就 是 对 这 些 数据 去 匈 分 类 、 
去 粗 取 精 , 从 数据 中 挖掘 出 有 价值 的 知识 和 信息 ,通过 
特定 的 分 析 方 法 把 大 数据 变 成 小 数据 ,这 也 正 是 数字 
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图 书馆 面临 的 重点 问题 ,数字 图 书馆 一 方面 要 扩大 资 
源 范畴 ,更 重要 的 是 要 加 强 资源 的 大 数据 分 析 ,探索 各 
类 资源 间 的 相互 关联 ,并 将 它们 有 机 地 整合 在 一 起 。 
2014 年 , 李 广 建 、 化 柏林 "5 在 对 大 数据 分 析 和 情报 分 
析 的 共性 和 差异 性 进行 讨论 后 ,指出 大 数据 时 代 就 是 
数据 分 析 的 时 代 , 大 数据 的 基础 在 于 数据 ,这 些 数据 体 
量 巨大 ,数据 类 型 繁多 ,价值 密度 低 , 例 如 电 商 网 站 的 
购物 信息 ,城市 摄像 头 记录 的 信息 等 ,大 数据 要 解决 的 
核心 问题 就 是 如 何 去 处 理 这 些 超大 规模 .类 型 多 样 的 
网 络 数据 .移动 数据 等 。 数 字 图 书馆 面 对 大 数据 时 代 
环境 ,如 何 增加 数字 资源 广度 .如何 加 强 资源 组 织 加 工 
深度 都 是 需要 高 度 重视 的 问题 。 

4.2.2 数字 图 书馆 的 大 数据 处 理 技术 随 着 学 术 资 
源 建设 商 的 迅猛 发 展 ,数字 图 书馆 的 数字 资源 每 年 者 
在 旦 指数 增长 ,其 规模 越 大 ,处 理 的 难度 也 越 大 ,但 对 
其 沛 行 挖掘 可 能 得 到 的 价值 更 大 ,这 也 是 大 数据 受到 
辐 服 馆 重视 的 原因 。2013 年 ,刘炜 ”等 在 论述 关联 数 


f 吾 解 的 语义 ,丰富 的 语义 链接 具有 更 好 的 开放 性 和 
瑟 操 作 性 ,使 大 数据 的 分 析 深入 到 知识 层次 。2014 
锯 > 程 学 旗 等 总结 出 大 数据 处 理 的 难点 并 不 在 于 数 
据 剖 大 ,因为 通过 对 计算 机 系统 的 扩展 可 以 在 一 定 程 
度 宝 缓解 数据 量 大 带 来 的 挑战 ,大 数据 真正 难以 对 付 
的 疾 战 来 自 于 数据 类 型 多 样 .要求 及 时 响应 和 数据 的 
不 确定 性 ,其 中 在 不 确定 性 方面 ,数据 真 伪 难 辩 是 大 数 
据 应 用 的 最 大 挑战 。 现 在 的 数据 中 心 技术 很 难 满足 大 
数 锯 的 需要 ,存储 能 力 的 增长 也 远 远 赶不上 数据 的 增 
长 ,在 处 理 大 数据 的 各 种 技术 挑战 中 , 李 国 杰 、 程 学 


年 的 Hadoop .2010 年 的 Dremel 系统 ;Twitter 的 Storm 
系统 Facebook 的 Scribe 系统 、Linkedin 的 Samza 系统 
等 。 要 挖 据 大 数据 的 价值 就 必然 要 对 大 数据 进行 内 容 
上 的 分 析 与 计算 ,其 中 关键 技术 包括 :中 深度 学 习 ; 
@) 知 识 计 算 ;@ 可 视 化 。 深 度 学 习 和 知识 计算 是 大 数 
据 分 析 的 基础 ,可视化 既是 数据 分 析 的 关键 技术 ,也 是 
数据 分 析 结 果 呈 现 的 关键 技术 。 人 们 在 利用 大 数据 分 
析 和 处 理 结果 帮 助 作出 合理 决策 的 过 程 中 ,深度 学 习 、 
知识 计算 和 可 视 化 技术 起 到 了 相辅相成 的 作用 ,通过 
文献 阅读 ,发 现 国内 学 者 在 数字 图 书馆 的 大 数据 处 理 
系统 领域 的 成 果 不 显著 。 

4.2.4 ”数字 图 书馆 的 大 数据 思维 ”大 数据 时 代 , 人们 
的 研究 思维 逐步 发 生 了 转变 ,学 者 们 在 研究 数字 图 书 
馆 时 也 接受 了 大 数据 的 思维 。2015 年 ,加州 大 学 尔 湾 
分 校 的 机 Renaud 、 麻 省 理工 学 院 的 S.，Britton EE 借 
助 大 数据 技术 ,对 数字 图 书馆 用 户 行为 进行 深度 挖掘 ， 
并 帮助 学 校对 学 生 阅 读 行 为 及 相关 信息 进行 关联 分 
析 。2015 年 , 苏 新 宁 "” 概括 性 地 提出 ,数字 图 书馆 的 
大 数据 思维 即 指 从 大 数据 的 角度 考虑 数字 图 书馆 的 各 
类 问题 ,把 数字 图 书馆 完全 融入 大 数据 之 中 ,增加 数字 
图 书馆 数字 产品 ,提升 数字 图 书馆 服务 水 平 ,借助 大 数 
据 技术 解决 数字 图 书馆 有 关 问 题 。 数 字 图 书馆 的 大 数 
据 技 术 包括 数据 采集 、 信 息 处 理 组织 架 构 .知识 挖掘 、 
分 析 预 测 、 结 果 呈 现 、 服 务 技术 等 。 具 体 来 说 包括 : 
QD 语义 技术 ;@ 数 据 聚 类 技术 ;(3 信 息 分 析 技 术 ;@ 检 
索 技 术 。 苏 新 宁 不 仅 提 出 了 数字 图 书馆 的 大 数据 思 
维 ,而 且 从 数字 图 书馆 的 技术 体系 角度 对 大 数据 技术 
进行 了 高 度 凝 练 和 总 结 ,值得 数字 图 书馆 未 来 建设 借 
鉴 和 参考 。 


旋 " 强调 以 下 问题 值得 高 度 重视 :@ 大 数据 的 去 元 降 
噪 技术 ;@ 大 数据 的 新 型 表示 方法 ;@) 高 效率 低 成 本 的 
大 数据 存储 ;四 大 数据 的 有 效 融 合 ;@ 非 结构 化 和 半 结 
构 化 数据 的 高 效 处 理 ;@@ 大 数据 挖掘 分 析 工 具 和 开发 
环境 ;GO 降低 数据 处 理 存储 和 通信 能 耗 的 新 技术 。 数 
字 图 书馆 如 果 利 用 传统 的 关系 数据 库 技 术 将 无 法 胜任 
这 些 数据 的 处 理 , 必须 利用 专门 的 大 数据 处 理 系统 来 
应 对 海量 数据 难题 ,数字 图 书馆 的 大 数据 系统 引起 了 
相关 学 者 的 关注 。 

4.2.3 数字 图 书馆 中 的 大 数据 系统 为 了 应 对 大 数 
据 带 来 的 困难 和 挑战 ,Coogle Facebook Linkedin、Mi- 
crosoft 等 互联 网 企业 推出 了 不 同类 型 的 大 数据 处 理 系 
统 ,典型 的 系统 包括 :2003 年 Coogle 开发 的 Coogle 文 
件 系 统 GFS .2004 年 开发 的 MapReduce 编程 系统 .2006 


4.3 大 数据 时 代数 字 图 书馆 建设 研究 

学 者 们 发 现 , 大 数据 时 代数 字 图 书馆 的 功能 面临 
新 的 变化 :图 书馆 将 从 传统 的 信息 查询 .推送 等 服务 转 
向 在 海量 的 数据 中 分 析 和 挖掘 潜在 的 有 价值 的 信息 和 
知识 服务 。 数 字 图 书馆 已 具备 大 数据 特征 ,信息 资源 
总 量 日 次 庞大 并 且 继 续 增长 ,馆藏 资源 种 类 繁多 ,图书 
馆 的 大 数据 建设 研究 必须 提 上 日 程 。 
4.3.1 数字 图 书馆 建设 中 的 关键 问题 2013 年 , 温 浩 
宇 、 李 京 京 ”针对 大 数据 时 代数 字 图 书馆 异 构 数据 的 
集成 问题 ,提出 了 基于 NoSQL 中 间 件 模型 的 数据 集成 
方法 ,有 助 于 数字 图 书馆 向 海量 异 构 数据 进行 知识 挖 
掘 为 用 户 提供 决策 支持 等 方向 发 展 。2014 年 , 陈 传 
夫 " 等 在 分 析 数字 图 书馆 建设 现状 的 基础 上 ,指出 
书馆 的 数据 处 理 范 围 方式, 对象 .目的 都 将 发 生 巨 大 
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的 变化 ,图 书馆 的 传统 业务 将 向 数据 分 析 、 数 据 挖 气 转 
移 ,对 大 量 数据 的 分 析 和 处 理 将 成 为 图 书馆 的 主要 业 
务 , 从 大 量 数据 中 发 现 的 规律 越 多 , 找 出 的 潜在 价值 越 
大 ,图 书馆 的 服务 水 平 提升 得 越 快 。2016 年 ,T. San- 
dra\.R. Stephen \D. Loukia" 介绍 了 伦敦 大 学 与 大 黄 图 
书馆 合作 的 “音乐 大 数据 历史 "项 目 ,重点 展示 了 音乐 
大 数据 异 构 性 带 来 的 挑战 和 使 用 各 种 不 同 结构 目录 数 
据 的 方法 ,举例 说 明 学 者 和 科学 家 如 何 通过 大 规模 数 
据 分 析 和 数据 库 构 建 来 生产 大 数据 ,以 上 几 个 关键 问 
题 的 研究 值得 我 国 数字 图 书馆 建设 实践 中 借鉴。 
4.3.2 数字 图 书馆 建设 中 的 注意 事项 “同时 ,在 图 书 
馆 建设 过 程 中 ,国外 学 者 指出 了 几 个 要 注意 的 问题 ,一 
是 R. KaraGust 和 S. Breezy'™ 在 2015 年 指出 图 书馆 
只 需要 了 解 大 数据 的 原因 以 及 大 数据 在 图 书馆 持续 开 
放 和 资源 中 的 重要 性 ; 二 是 C.D. Grand 和 R. C. 
Seaty ”在 2016 年 指出 ,在 大 数据 和 社交 媒体 莲 勃 发 展 
的 这 景 下 ,要 重新 审视 图 书馆 的 核心 价值 观 ;三 是 了 
Sa 和 LAmber2 在 2017 年 强调 图 书馆 在 大 数据 
时 信 面 临 的 一 个 突出 挑战 是 用 户 数据 的 隐私 保护 问 
4 人 大 数据 时 代数 字 图 书馆 的 服务 模式 研究 

中 | 随 着 大 数据 时 代 的 发 展 ,学 者 们 逐渐 认识 到 数字 
图 市 亿 将 突破 传统 的 图 书馆 思维 ,无 论 是 数字 图 书馆 
的 服务 理念 以 及 工作 方式 ,都 必须 是 大 数据 思维 。 
4PSI 图 书馆 信息 服务 模式 创新 研究 2012 年 , 李 广 
建 x 疡 林 驻 在 剖析 大 数据 视角 下 的 情报 分 析 时 ,指出 
大 数据 的 特点 决定 了 传统 的 信息 服务 模式 将 遇 到 瓶 
颈 6 以 人 工分 析 为 主 的 工作 模式 将 被 基于 计算 机 的 智 
能 化 分 析 模式 取代 。2013 年 , 韩 染 峰 * 在 分 析 大 数据 
的 特征 后 ,阐释 了 图 书馆 服务 质量 的 提升 需要 大 数据 
的 支持 ,大 数据 必 将 成 为 数字 图 书馆 的 核心 资产 。 随 
着 大 数据 分 析 技 术 的 日 浙 成 熟 ,大 数据 将 变 得 越 来 越 
有 价值 ,大 量 的 读者 借阅 记录 服务 消费 痕迹 等 都 能 ， 
数字 图 书馆 的 未 来 发 展 .服务 模式 进行 预测 创新 分 析 。 
王 天 泥 * 认为 知识 咨询 是 图 书馆 未 来 咨询 服务 的 新 
模式 ,指出 数据 资源 与 人 才 建设 是 图 书馆 知识 咨询 服 
务 的 两 大 发 展 驱动 因素 ;并 且 进 一 步 分 析 大 数据 技术 
在 图 书馆 阅读 推广 中 的 应 用 ,探讨 了 “3A5 步 "法 应 用 
于 图 书 阅读 推广 的 流程 ””。2017 年 , 王 军 光 等 ” 针 
对 国内 图 书馆 信息 服务 存在 的 共性 问题 和 不 足 开展 分 
析 , 探 讨 了 基于 大 数据 的 高 校 图 书馆 信息 服务 内 容 以 
及 大 数据 环境 下 的 高 校 图 书馆 信息 服务 创新 模式 。 
4.4.2 跨 界 ,路 学 科 信息 服务 模式 研究 ”学 者 们 在 控 
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究 图 书馆 新 型 服务 模式 时 ,尝试 将 大 数据 技术 与 图 书 
馆 进 行 跨 界 、 跨 学 科 合 作 。2012 年 ,美国 IBM 公司 与 
波兰 Wroclaw University (上 弗 罗 次 拟 夫 大 学 ) 图 书馆 合 
作 … ,运用 大 数据 技术 保存 和 数字 化 80 万 页 欧洲 手 
稿 .书籍 和 地 图 ,创造 了 最 大 的 中 世纪 手稿 和 古代 地 理 
地 图 集 的 数字 档案 项 目 ,这 是 大 数据 技术 跨 界 成 功 运 
用 于 图 书馆 信息 服务 模式 的 典型 案例 。 除 了 路 界 合 
作 ,学 者 们 认为 图 书馆 必须 突破 固有 的 思维 ,应 该 面向 
社会 进行 跨 学 科 合 作 ,2017 年 ,J. Vanessa 2” 在 管理 澳 
大 利 亚 某 公司 地 球 物理 数据 的 数据 库 和 流程 项 目 中 ， 
让 图 书馆 员 与 地 球 物理 学 家 、 地 球 物理 数据 分 析 师 .IT 
支持 专家 和 数据 库 设计 师 进行 合作 ,结果 表明 ,通过 跨 
学 科 合 作 , 图 书馆 员 为 项 目 提 供 了 更 好 的 元 数据 捕获 
和 数据 管理 .优化 的 搜索 功能 .更 清晰 的 项 目 目标 。 实 
践 表 明 ,图 书馆 只 有 正确 地 转化 思维 大胆 尝试 才能 
好 地 服务 用 户 、 服 务 社 会 。 我 国学 者 对 于 图 书馆 跨 界 、 
路 学 科 信息 服务 模式 合作 的 研究 还 有 竺 拓展 。 

4.4.3 葡 入 科研 过 程 的 信息 服务 模式 研究 ” 随 着 科 
学 研究 人 员 的 信息 需求 和 科学 研究 模式 发 生 显著 性 的 
变化 ,学 者 们 尤其 注意 到 图 书馆 学 术 信息 服务 模式 的 
变化 。2014 年 , 邓 仲 华 等 ” 从 租 入 式 服务 理念 的 角 
度 ,充分 考虑 用 户 科研 环境 的 变化 ,分 析 藤 和 人 科研 过 程 
的 信息 服务 模式 , 即 以 信息 服务 为 轴 心 、 以 科研 用 户 为 
中 心 \ 以 数据 资源 为 核心 .以 科研 用 户 需求 为 导向 、 以 
舱 入 式 信 息 服 务 团队 为 重心 开展 工作 。 学 者 们 认为 图 
书馆 的 信息 服务 模式 和 信息 分 析 模 式 都 将 改变 ,构建 
具有 强大 的 资源 整合 能 力 ,海量 信息 分 析 能 力 、 大 数据 
挖掘 能 力 和 多 维度 信息 可 视 化 能 力 的 集成 平台 是 图 书 
馆 未 来 服务 模式 的 发 展 趋势 。 


5.1 研究 现状 小 结 

本 文 从 大 数据 的 内 涵 入 手 ,对 该 领域 相关 研究 进 
行 梳理 整合. 分析, 发 现 虽 然 目 前 大 数据 时 代数 字 图 
书馆 的 研究 已 有 不 少 成 果 ,但 仍 存 在 一 些 问题 : 

(1) 相关 研究 比较 分 散 、 不 够 系统 。 国 内 研究 内 
容 侧 重 于 大 数据 时 代 图 书馆 遇 到 的 瓶 贷 和 障碍 、 图 书 
馆 信息 服务 的 理念 、 图 书馆 信息 服务 模式 预测 等 ,对 于 
大 数据 时 代 图 书馆 信息 服务 的 效果 影响 因素 和 非 大 
数据 背景 下 图 书馆 信息 服务 的 前 后 对 比 研究 较为 鲜 
见 ,缺少 实际 案例 分 析 和 数据 对 比 研究 。 

(2) 大 数据 和 数字 图 书馆 结合 研究 程度 不 够 。 大 
数据 研究 大 多 在 于 分 析 大 数据 的 内 涵 特征 和 在 各 领 
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域 的 技术 应 用 等 ,图 书馆 研究 还 是 以 传统 的 服务 内 容 
和 模式 为 主 调 ,将 二 者 结合 起 来 研究 的 成 果 数 量 不 多 ， 
大 数据 技术 在 图 书馆 资源 建设 .图 书馆 信息 服务 优化 
中 的 应 用 有 待 挖掘 提高 。 

(3) 图 书馆 服务 目标 不 明确 。 图 书馆 自 诞生 以 
来 , 随 着 社会 外 界 环境 的 变化 ,图 书馆 员 的 服务 理念 需 
要 随 着 时 代 的 发 展 快速 变化 ,特别 是 社会 进入 信息 时 
代 以 后 ,图 书馆 员 往往 还 没有 弄 清 楚 图 书馆 的 功能 、 服 
务 目标 要 如 何 适应 变化 ,时 代 又 变 了 。 大 数据 是 新 生 
事物 ,大 数据 时 代 和 网 络 时 代 的 图 书馆 服务 目标 究竟 
有 何 区 别 .图 书馆 资源 建设 .图 书馆 员 自 身 该 如 何 提升 
都 是 人 们 必须 要 思考 的 问题 。 

(4) 研 究 方法 不 够 新 颖 。 已 有 的 成 果 以 文献 研究 
涛 居多 ,研究 方法 有 待 优化 ,大 数据 时 代数 字 图 书馆 特 

人 研究 方法 还 要 继续 深 挖 。 

5 人 人 OO 未 来 研究 的 思 

SS 笔者 认为 ,下 一 步 研究 重点 应 关注 以 下 方面 ; 
加 (1) 明确 大 数据 时 代 图 书馆 服务 目标 。 通 过 对 比 

传 锁 的 服务 内 容 和 服务 模式 ,提出 大 数据 时 代 图 书馆 

彩 销 对 象 和 服务 目标 ,针对 性 地 提出 服务 优化 策略 。 

QJ(2) 结 合 国内 外 成 功 案例 分 析 , 深 入 探究 影响 图 

要 外 信息 服务 的 各 种 因素 ,找到 大 数据 促进 优化 图 书 

储 赔 息 服务 的 核心 要 素 。 

.全 (3 ) 跨 学 科 合作 研究 。 大 数据 已 被 应 用 到 多 个 领 

堪 狱 非 情 报 学 领域 独 有 ,因此 可 以 进行 跨 学 科 合 作 研 

阐 鉴 其 他 领域 的 科研 成 果 并 将 其 应 用 于 图 书馆 研 
究 5 在 资源 建设 技术 应 用 .服务 模式 等 多 方面 进行 深 
入 峻 究 。 

(4) 在 研究 方法 上 寻求 突破 和 创新 ,可 以 参考 学 
习 国 外 学 者 的 研究 方法 和 工具 ,例如 2017 年 , K. 
Young-Seok 和 C. LouiseD0 首次 将 Chernoff( 切 尔 诺 夫 ) 
人 脸 图 像 方法 用 于 图 书馆 的 大 数据 分 析 , 分 别 对 伦敦 
和 首尔 两 个 城市 图 书馆 业务 进行 数据 对 比 ,评估 其 服 
务 质量 ,为 图 书馆 信息 服务 提供 了 一 种 全 新 的 评估 技 
术 , 值 得 借鉴 。 
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A Review of Researches on Digital Library in the Era of Big Data 
Huang Chuanhui 
School of Education ,South-Central University for Nationalities, Wuhan 430074 
Abstract: [Purpose/significance | This article systematically reviews the research literature on digital libraries in 
the=era of big data at home and abroad, which aims to provide reference for further studies in this field in China. [ Meth- 
odz ocess | This article adopts methods such as synthesis, induction, and comparison. It includes four parts : the conno- 
ta 6 of big data and its impact on digital libraries, the application of big data technology in digital libraries, the research 
orNthe service model of digital library in big data era. [ Result/conclusion | The results show that related areas have made 


ag of achievements, but there are some problems. The next step in domestic research in this area can be: (Dclarify the 


tibn= of various factors affecting library information services, and find big data to promote library information optimization 


ice core elements; (Binterdisciplinary cooperation research. (4)seek breakthroughs and innovations in research meth- 


于 NKeywords: big data digital library information service challenge opportunities 
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《网 络 用 户 与 网 络 信息 服务 》 书 讯 


: 由 初 景 利 教授 主编 的 4 网络 用 户 与 网 络 信息 服务 》,2018 年 3 月 由 海洋 出 版 社 正式 出 版 。 该 书 立足 于 信息 环境 的 
: 网 络 化 演进 ,聚焦 网 络 用 户 的 需求 与 行为 特点 ,以 图 书 情报 领域 的 发 展 变化 现状 与 趋势 为 视角 ,以 网 络 信息 服务 为 主 
线 ,探讨 图 书 情报 服务 转型 变革 的 总 体 战 略 与 策略 。 该 书 总 结 研究 了 国内 外 网 络 信息 服务 的 研究 成 果 与 应 用 进展 , 比 | 


较 系 统 地 论述 了 数字 化 网 络 化 环境 下 图 书 情报 服务 需要 致力 于 解决 的 各 方面 主要 问题 。 该 书 内 容 全 面 , 资 料 丰 富 , 理 
论 与 实践 相 结 合 , 致 力 于 推动 图 书 情报 机 构 加 快 适应 网 络 用户 对 网 络 信 息 服务 的 新 需求 ,加 快 提升 图 书 情报 人 员 网 络 


信息 服务 能 力 。 该 书 可 作为 图 书 情报 专业 研究 生 教材 ,也 可 供 图 书 情报 研究 人 员 和 从 业 人 员 作 为 重要 参考 。 
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